発表の概要

  • 論文に掲載するシミュレーション結果を整理する

シミュレーション

  • ノード数20のランダムネットワーク3つを直列にブリッジでつないでネットワークを作成
  • ネットワーク上に距離1~6までのゴールを一つずつ設定
  • 最短距離の2乗=報酬とする
  • Goal nodes = {2, 6, 23, 31, 42, 43}
  • {Distance: Reward} = {1:1, 2:4, 3:9, 4:16, 5:25, 6:36}
  • ネットワーク上を強化学習(chaining: Enquist et al. 2016)で探索

探索はQ学習xソフトマックス選択に似たモデル(chaining: c.f. Enquist et al., 2016) * 状態行動価値Qの更新

\(Q_{S\rightarrow B,t} = (1 - \alpha_Q ) \cdot Q_{S\rightarrow B,t-1} + \alpha_Q \cdot W_{S', t-1}\)

S: 移動前の状態、S’: 移動後の状態、B:行動 $_Q $: 学習率、W: 状態価値≒報酬

  • 状態価値の更新

\(W_{S,t} = (1 - \alpha_W ) \cdot W_{S,t-1} + \alpha_W \cdot W_{S', t-1}\)

S: 移動前の状態、S’: 移動後の状態、$_W $: 学習率

  • 行動の選択確率(ソフトマックス・ルール)

\(Pr(S \rightarrow B,t) = exp(Q_{S \rightarrow B,t-1}) / \Sigma_{B'} exp(Q_{S \rightarrow B',t-1})\)


※シミュレーション開始時はゴール以外の価値は全て0 ※学習率(初期値)\(\alpha_Q = \alpha_W = 0.9\)
※逆温度(初期値)\(\beta= 1.0\):値が小さいほど探索を行う

1 個人学習のみ

  • 1万人のエージェントが独立に個人学習のみを4万ラウンド行った

Reward

推移

  • 1〜4万ラウンドの間の報酬頻度の推移

報酬分布

R=1

R=10

R=100

R=400

R=5000

R=20000

R=40000

2 教育あり

  • 1世代あたりのエージェント数:10000
  • 1世代あたりのラウンド数(R):10,100,400,5000, 20000
  • 世代数(G):100 or 定常状態まで
  • 教育フェイズ(T):1世代あたりラウンド数の10〜90%

Reward

世代の推移

100世代まで

R=10

R=100

R=400

R=5000

R=20000

定常状態まで

R=10
  • 10ラウンドx7000世代

R=100
  • 100ラウンドx2000世代

R=400
  • 400ラウンドx1000世代

R=5000
  • 5000ラウンドx100世代

R=20000
  • 2万ラウンドx100世代
  • これは200世代で十分なので再掲

最終世代

100世代目

R=10

R=100

R=400

R=5000

R=20000

定常状態

R=10

R=100

R=400

R=5000

R=20000

100世代目報酬分布

R=10

T=1
  • 100世代目の報酬分布

T=2
  • 100世代目の報酬分布

T=3
  • 100世代目の報酬分布

T=4
  • 100世代目の報酬分布

T=5
  • 100世代目の報酬分布

T=6
  • 100世代目の報酬分布

T=7
  • 100世代目の報酬分布

T=8
  • 100世代目の報酬分布

T=9
  • 100世代目の報酬分布

R=100

T=10
  • 100世代目の報酬分布

T=20
  • 100世代目の報酬分布

T=30
  • 100世代目の報酬分布

T=40
  • 100世代目の報酬分布

T=50
  • 100世代目の報酬分布

T=60
  • 100世代目の報酬分布

T=70
  • 100世代目の報酬分布

T=80
  • 100世代目の報酬分布

T=90
  • 100世代目の報酬分布

R=400

T=40
  • 100世代目の報酬分布

T=80
  • 100世代目の報酬分布

T=120
  • 100世代目の報酬分布

T=160
  • 100世代目の報酬分布

T=200
  • 100世代目の報酬分布

T=240
  • 100世代目の報酬分布

T=280
  • 100世代目の報酬分布

T=320
  • 100世代目の報酬分布

T=360
  • 100世代目の報酬分布

R=5000

T=500
  • 100世代目の報酬分布

T=1000
  • 100世代目の報酬分布

T=1500
  • 100世代目の報酬分布

T=2000
  • 100世代目の報酬分布

T=2500
  • 100世代目の報酬分布

T=3000
  • 100世代目の報酬分布

T=3500
  • 100世代目の報酬分布

T=4000
  • 100世代目の報酬分布

T=4500
  • 100世代目の報酬分布

R=20000

T=2000
  • 100世代目の報酬分布

T=4000
  • 100世代目の報酬分布

T=6000
  • 100世代目の報酬分布

T=8000
  • 100世代目の報酬分布

T=10000
  • 100世代目の報酬分布

T=12000
  • 100世代目の報酬分布

T=14000
  • 100世代目の報酬分布

T=16000
  • 100世代目の報酬分布

T=18000
  • 100世代目の報酬分布

定常状態報酬分布

R=10

T=1
  • 7000世代目の報酬分布

T=2
  • 7000世代目の報酬分布

T=3
  • 7000世代目の報酬分布

T=4
  • 7000世代目の報酬分布

T=5
  • 7000世代目の報酬分布

T=6
  • 7000世代目の報酬分布

T=7
  • 7000世代目の報酬分布

T=8
  • 7000世代目の報酬分布

T=9
  • 7000世代目の報酬分布

R=100

T=10
  • 2000世代目の報酬分布

T=20
  • 2000世代目の報酬分布

T=30
  • 2000世代目の報酬分布

T=40
  • 2000世代目の報酬分布

T=50
  • 2000世代目の報酬分布

T=60
  • 2000世代目の報酬分布

T=70
  • 2000世代目の報酬分布

T=80
  • 2000世代目の報酬分布

T=90
  • 2000世代目の報酬分布

R=400

T=40
  • 1000世代目の報酬分布

T=80
  • 1000世代目の報酬分布

T=120
  • 1000世代目の報酬分布

T=160
  • 1000世代目の報酬分布

T=200
  • 1000世代目の報酬分布

T=240
  • 1000世代目の報酬分布

T=280
  • 1000世代目の報酬分布

T=320
  • 1000世代目の報酬分布

T=360
  • 1000世代目の報酬分布

R=5000

T=500
  • 100世代目の報酬分布

T=1000
  • 100世代目の報酬分布

T=1500
  • 100世代目の報酬分布

T=2000
  • 100世代目の報酬分布

T=2500
  • 100世代目の報酬分布

T=3000
  • 100世代目の報酬分布

T=3500
  • 100世代目の報酬分布

T=4000
  • 100世代目の報酬分布

T=4500
  • 100世代目の報酬分布

R=20000

T=2000
  • 50世代目の報酬分布

T=4000
  • 50世代目の報酬分布

T=6000
  • 50世代目の報酬分布

T=8000
  • 50世代目の報酬分布

T=10000
  • 50世代目の報酬分布

T=12000
  • 50世代目の報酬分布

T=14000
  • 50世代目の報酬分布

T=16000
  • 50世代目の報酬分布

T=18000
  • 50世代目の報酬分布

3 無限寿命x教育

  • 1世代あたりのエージェント数:10000
  • 1世代あたりのラウンド数(R):10,100,400,5000, 20000
  • 世代数(G):100 or 定常状態まで
  • 教育フェイズ(T):1世代あたりラウンド数の10〜90%

Reward

世代の推移

100世代まで

R=10

R=100

R=400

R=5000

R=20000

定常状態まで

R=10
  • 10ラウンドx7000世代

R=100
  • 100ラウンドx2000世代

R=400
  • 400ラウンドx1000世代

R=5000
  • 5000ラウンドx100世代

R=20000
  • 2万ラウンドx100世代
  • これは200世代で十分なので再掲

最終世代

100世代目

R=10
  • 100世代目

R=100
  • 100世代目

R=400
  • 100世代目

R=5000
  • 100世代目

R=20000
  • 100世代目

定常状態

R=10
  • 7000世代目

R=100
  • 2000世代目

R=400
  • 10000世代目

R=5000
  • 100世代目

R=20000
  • 50世代目